Análisis de MAGs

Objetivos
  1. Describir los pasos generales involucrados en el ensamblaje de genomas y metagenomas a partir de secuencias de lectura corta.
  2. Evaluar la calidad de un ensamblaje y distinguir las características de un buen ensamblaje a nivel de comunidad y de genomas individuales.
  3. Mapear lecturas de la comunidad a los contigs generados en un ensamblaje de metagenomas y determinar otros aspectos de su calidad a partir de ello.
  4. Considerar los efectos de longitud de k-mero en un ensamblaje.

Datos: Localización de los datos crudos que debe copiar a su directorio de grupo:

SRR2915812_1.fastq.gz SRR2915812_2.fastq.gz

mock-forward.fastq.gz mock-reverse.fastq.gz

Recursos: A lo largo del documento encontrará para su consulta enlaces a los manuales de cada una de las herramientas a utilizar en el desarrollo del taller. Allí encontrará cada uno de los comandos detallando las posibles opciones a usar.

Importante! Seleccione una de las secciones a desarrollar (I ó II), ya sea ensamblaje de genoma individual o de metagenoma. Tenga en cuenta las herramientas que necesitaría usar en su proyecto de semestre para ayudar a decidir qué sección desarrollar. Desarrolle adicionalmente la sección III independiente del tipo de ensamblaje que haya seleccionado.

Antes de iniciar, inicie la sesión interactiva

Indicaciones

I. Genomas individuales (puntaje 33.3/100)

Como podrá verificar, los archivos de secuencia para el genoma de Klebsiella pneumoniae contienen demasiadas lecturas. Solo usaremos un subconjunto del conjunto de datos original para este taller.

  1. Cree un directorio de datos en su carpeta de grupo que tenga el nombre ensamblaje_genoma

  2. Use Seqtk v1.3 y trabaje con una muestra del 25% de las secuencias de estos archivos. Busque el comando en Seqtk para realizar esta labor y nombre los archivos de salida como klebsiella_0.25_1.fastq y klebsiella _2.fastq, y ubíquelos en el directorio que creó en el paso anterior.

La calidad del ensamblaje depende en gran medida del tamaño de k-mero utilizado. El tamaño ideal de k-mero depende de la longitud de lectura y la profundidad de secuenciación y la diversidad de la muestra secuenciada.

  1. Use SPAdes v3.15.3 y realice dos ensamblajes, uno con longitud de k-mero 61 y otro con longitud 91. Nombre los archivos de modo que reflejen la diferencia en el parámetro. Recuerde también especificar que los archivos de entrada son pareados.

  2. Ahora evalúe la calidad de los dos ensamblajes. Utilice QUAST v5.0.2 para esta labor. Utilice como referencia el genoma de Klebsiella pneumoniae subsp. pneumoniae HS11286 disponible aquí.

→ Para entregar (genoma Klebsiella pneumoniae):

Reportes de QUAST y una explicación que resulte de comparar los ensamblajes realizados con las dos longitudes de k-mero.

II. Metagenomas (puntaje 33.3/100)

Estos datos ya han sido limpiados y filtrados por calidad. De nuevo, solo usaremos un subconjunto del conjunto de los datos originales para esta sección.

  1. Cree un directorio de datos en su carpeta de grupo que tenga el nombre ensamblaje_metagenoma

  2. Use Seqtk v1.3 y trabaje con una muestra del 25% de las secuencias de estos archivos. Busque el comando en Seqtk para realizar esta labor y nombre los archivos de salida para reflejar este procesamiento y ubíquelos en el directorio que creó en el paso anterior.

  3. Realice el ensamblaje del metagenoma con los parámetros por defecto para librerías pareadas usando el software Megahit.

→ Para entregar:

3a. ¿Cuáles son los parámetros por defecto del programa? Consulte.

3b. ¿Que parámetros considera que sería útil modificar? Justifique su respuesta.

  1. Utilice QUAST v5.0.2 para revisar los estadísticos del ensamblaje.

→ Para entregar (metagenoma):

4a. Reporte de QUAST.

4b. ¿Qué le indican la longitud total, el número de contigs totales, el número de contigs > 1Kb, y las métricas de N50 y L50?

III. Mapeo de lecturas al ensamblaje (puntaje 33.3/100)

(ya sea Klebsiella pneumoniae o metagenoma) Es importante saber cuál es la contribución de las lecturas obtenidas al ensamblaje resultante. No es lo mismo que los contigs reflejen la información de 80% de las secuencias iniciales a que reflejen solo el 10% de las secuencias de su muestra de interés. Para revisar esto vamos a realizar un procedimiento de mapeo. Si desarrolló la sección I, debe realizar tres mapeos diferentes, según las indicaciones en el punto 5.

  1. Use Bowtie2 para mapear las lecturas iniciales al archivo resultante de su ensamblaje, ya sea final.contigs.fa producido por Megahit (metagenomas) o los archivos producidos por SPAdes con las diferentes longitudes de k-mero (genoma individual).

Primero cree el índice usando el comando bowtie-build. El comando requiere 2 argumentos. El primer argumento es la referencia FASTA (“final.contigs.fa” en el caso del metagenoma o tres opciones en el ensamblaje de Klebsiella pneumoniae individual, ya sea a) el genoma de referencia que descargó de Klebsiella pneumoniae o b) el ensamblaje con longitud de k-mero 61 y c) el ensamblaje con longitud de k-mero de 91). El segundo argumento es el nombre de archivo “base” que se utilizará

para los archivos de índice creados. Creará un montón de archivos que comienzan con nombre_elegido_índice(puede ser ref_megahit, ref_NCBI, ref_k61, o ref_k91). Luego, corra el mapeo como tal:

bowtie2 -x nombre_elegido_índice\
    -1 archivo_1.fastq\
    -2 archivo_2.fastq\
    -S output.sam

→ Para entregar (tanto Klebsiella pneumoniae como metagenoma):

5a. ¿Qué porcentaje de lecturas pudo mapear a los contigs generados? ¿Qué conclusiones podría sacar?

5b. ¿Cómo podría cambiar esta visión si solo se mantienen los contigs > 2Kb?

5c. ¿Para qué otras aplicaciones es útil la técnica de mapeo a (meta)genomas de referencia?

IV. Predicción de genes y análisis funcional (ya sea Klebsiella pneumoniae o metagenoma)

Predicción de genes: La predicción de genes es la identificación algorítmica de segmentos de secuencias que son biológicamente funcionales, como los genes codificantes de proteínas, genes codificadores de ARN (e.g, 16S rARN) y secuencias reguladoras. Una vez ensamblado el genoma o el metagenoma, vamos a llevar a cabo la predicción de genes mediante el software Prokka. Ejecute Prokka sobre el ensamblaje realizado según la sección elegida al inicio del taller. Para esto utilice

prokka contigs.fa\
    --outdir $SAMPLE\
    --norrna\
    --notrna\
    --metagenome\
    --cpus 8

$SAMPLE es una variable ambiental en bash para reemplazar con el nombre que desee para sus archivos por otro lado, la opción --metegenome indica que las muestras son metagenomas.

Para entregar (tanto Klebsiella pneumoniae como metagenoma):

  • ¿Qué clase de archivos produce como salida Prokka?

  • Visualice el archivo GFF con el comando grep -v "^#" $SAMPLE | less –S. ¿Cuántas regiones codificantes encontró?

-. ¿Para qué sirve el archivo .ffa?

Ahora realizaremos la anotación funcional de los genes predichos y los visualizaremos gráficamente. Para esto, utilizaremos COGclassifier. Este software permite realizar la búsqueda de secuencias de consulta en la base de datos COG, pasando por la anotación y clasificación de las funciones de los genes, hasta la generación de figuras.

Es necesario que el número de threads sea 8 --thread_num 8

Para entregar (tanto Klebsiella pneumoniae como metagenoma):

  • Identifique los archivos generados. ¿Qué indica cada uno?
  • ¿Qué porcentaje de secuencias fueron clasificadas?
  • ¿Qué le indican las gráficas generadas? Adjunte las imágenes.